The objective of this paper is to learn dense 3D shape correspondence for topology-varying generic objects in an unsupervised manner. Conventional implicit functions estimate the occupancy of a 3D point given a shape latent code. Instead, our novel implicit function produces a probabilistic embedding to represent each 3D point in a part embedding space. Assuming the corresponding points are similar in the embedding space, we implement dense correspondence through an inverse function mapping from the part embedding vector to a corresponded 3D point. Both functions are jointly learned with several effective and uncertainty-aware loss functions to realize our assumption, together with the encoder generating the shape latent code. During inference, if a user selects an arbitrary point on the source shape, our algorithm can automatically generate a confidence score indicating whether there is a correspondence on the target shape, as well as the corresponding semantic point if there is one. Such a mechanism inherently benefits man-made objects with different part constitutions. The effectiveness of our approach is demonstrated through unsupervised 3D semantic correspondence and shape segmentation.
translated by 谷歌翻译
Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequence as input and output some good results by fine-tune pretrained models with standard cross-entropy loss. However, these methods fail to consider the linguistic aspect of text (e.g., coherence) and sentence-level structures. Moreover, they lack the ability to handle the low-resource problem which could often happen in practice considering the enormous amount of textual data online. In this paper, we present a coherence-based contrastive learning model named CoCo to detect the possible MGT under low-resource scenario. Inspired by the distinctiveness and permanence properties of linguistic feature, we represent text as a coherence graph to capture its entity consistency, which is further encoded by the pretrained model and graph neural network. To tackle the challenges of data limitations, we employ a contrastive learning framework and propose an improved contrastive loss for making full use of hard negative samples in training stage. The experiment results on two public datasets prove our approach outperforms the state-of-art methods significantly.
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
自主机时代的一个主要技术挑战是自动驾驶机器的编程,它要求跨多个领域的协同作用,包括基本的计算机科学,计算机架构和机器人技术,并且需要学术界和行业的专业知识。本文讨论了与生产现实生活自动驾驶机器相关的编程理论和实践,并在特定功能要求,性能期望和自主机的实施约束的背景下涵盖了从高级概念到低级代码生成的各个方面。
translated by 谷歌翻译
在这项工作中,我们研究了面部反动体组织(MD-FAS)的多域学习,其中需要更新预训练的FAS模型,以在源和目标域上同样表现出色,而仅使用目标域数据进行更新。我们为MD-FAS提供了一个新模型,该模型在学习新域数据时解决了遗忘问题,同时拥有高水平的适应性。首先,我们设计了一个简单而有效的模块,称为Spoof区域估计量(SRE),以识别欺骗图像中的欺骗痕迹。这种欺骗痕迹反映了源预先训练的模型的响应,该响应有助于升级模型在更新过程中打击灾难性遗忘。与先前的作品估计欺骗轨迹会产生多个输出或低分辨率二进制掩码,SRE以无监督的方式产生一个单一的,详细的像素估计值。其次,我们提出了一个名为FAS-Wrapper的新型框架,该框架从预先训练的模型中转移知识,并与不同的FAS模型无缝集成。最后,为了帮助社区进一步推进MD-FAS,我们基于SIW,SIW-MV2和Oulu-NPU构建了一个新的基准测试,并引入了四个不同的评估协议,其中源和目标域在欺骗类型,类型方面是不同的,年龄,种族和照明。我们提出的方法比以前的方法在MD-FAS基准上实现了卓越的性能。我们的代码和新策划的SIW-MV2公开可用。
translated by 谷歌翻译
Panoptic叙事接地(PNG)是一项新的任务,其目标是通过静止图像的密集叙事标题来分割事物和内容类别的视觉对象。先前的两阶段方法首先提取了通过现成的全盘分割模型提取分割区域的建议,然后进行粗糙的区域短语匹配,以将每个名词短语的候选区域接地。但是,两阶段的管道通常受到第一阶段低质量建议的性能限制,以及由区域特征池的损失以及为事物和东西类别设计的复杂策略引起的空间细节。为了减轻这些缺点,我们提出了一个单阶段的端到端像素匹配网络(PPMN),该网络将每个短语与其相应的像素直接匹配,而不是区域建议,并通过简单组合输出全段段。因此,我们的模型可以从密集注释的像素色素对的监督而不是稀疏的区域短语对中利用足够,更精细的跨模式语义对应关系。此外,我们还提出了与语言兼容的像素聚合(LCPA)模块,以进一步通过多轮修补剂增强短语特征的判别能力,该简化为每个短语选择最兼容的像素以适应相应的视觉上下文。广泛的实验表明,我们的方法在PNG基准测试中实现了新的最新性能,并具有4.0个绝对平均召回率增长。
translated by 谷歌翻译
现代神经网络使用构建块,例如与任意2D翻译一样的卷积。但是,这些香草块并不等于投影歧管中的任意3D翻译。即便如此,所有单眼3D检测器都使用香草块来获得3D坐标,这是为此而不是为香草块设计的任务。本文迈出了朝着探索综合的第一步,以在投影歧管中进行任意3D翻译。由于该深度是最难估计的单眼检测,因此本文提出了深度模棱两可的网络(deviant),该网络(deviant)构建了现有的量表等效性的可检测块。结果,偏差与投影歧管中的深度翻译相等,而香草网络却没有。额外的深度竞争力迫使这种偏差学习一致的深度估计,因此,越来越多的人在纯图像类别中的Kitti和Waymo数据集上实现了最新的单眼3D检测结果,并使用额外信息竞争地对方法进行了竞争性执行。此外,在跨数据库评估中,异常比香草网络更好。 https://github.com/abhi1kumar/deviant的代码和模型
translated by 谷歌翻译
最近的研究表明,基于预训练的gan的可控图像生成可以使广泛的计算机视觉任务受益。但是,较少的关注专用于3D视觉任务。鉴于此,我们提出了一个新颖的图像条件神经隐式领域,该领域可以利用GAN生成的多视图图像的2D监督,并执行通用对象的单视图重建。首先,提出了一个新颖的基于脱机的发电机,以生成具有对视点的完全控制的合理伪图像。然后,我们建议利用神经隐式函数,以及可区分的渲染器,从带有对象掩模和粗糙姿势初始化的伪图像中学习3D几何形状。为了进一步检测不可靠的监督,我们引入了一个新颖的不确定性模块来预测不确定性图,该模块可以补救伪图像中不确定区域的负面影响,从而导致更好的重建性能。我们方法的有效性是通过通用对象的出色单视3D重建结果证明的。
translated by 谷歌翻译
尽管在面部识别方面取得了重大进展(FR),但由于半约束训练数据集和无约束的测试方案之间的域间隙,在不受约束的环境中FR仍然具有挑战性。为了解决此问题,我们提出了一个可控的面部合成模型(CFSM),该模型可以模仿样式潜在空间中目标数据集的分布。CFSM在样式潜在空间中学习了一个线性子空间,并具有对综合多样性和程度的精确控制。此外,预先训练的合成模型可以由FR模型指导,从而使所得图像对FR模型训练更有益。此外,目标数据集分布的特征是学到的正交碱基,可以用来测量面部数据集之间的分布相似性。我们的方法在不受约束的基准测试中获得了显着的性能提高,例如IJB-B,IJB-C,TinyFace和IJB-S(+5.76%rank1)。
translated by 谷歌翻译
引用视频对象细分旨在预测视频中自然语言表达式引用的对象的前景标签。先前的方法要么取决于3D convnet,要么将附加的2D转向器作为编码器,以提取混合时空特征。但是,由于在解码阶段发生的延迟和隐式时空相互作用,这些方法遭受了空间错位或虚假分散因素的影响。为了解决这些限制,我们提出了一个语言桥梁的双链传输(LBDT)模块,该模块将语言用作中间桥,以在编码阶段早期完成显式和适应性的时空交互。具体地,在时间编码器中进行了交叉模式的注意,将单词和空间编码器引用以汇总和传递与语言相关的运动和外观信息。此外,我们还提出了在解码阶段的双边通道激活(BCA)模块,以通过通道激活进一步降低并突出时空一致的特征。广泛的实验表明,我们的方法在四个流行的基准测试基准上获得了新的最新性能,分别在A2D句子和J-HMDB句子上获得了6.8%和6.9%的绝对AP收益,同时消耗了大约7倍的计算机开销。
translated by 谷歌翻译